Algoritmo mejorado para bandidos contextuales lineales adversariales Descubre un nuevo algoritmo que logra regret casi óptimo en tiempo polinomial para bandidos contextuales lineales con pérdidas adversariales, sin necesidad de simulador. 2026-06-02 · 1 min